Sự thất bại của độ chính xác
Mặc dù một đa thức bậc cao có thể đi qua mọi điểm dữ liệu, nó thường dẫn đến các dao động kiểu "Runge". Những dao động này hoàn toàn không phản ánh quá trình vật lý thực sự. Do đó, việc yêu cầu hàm xấp xỉ khớp chính xác với dữ liệu là điều không hợp lý, đặc biệt khi các phép đo chịu ảnh hưởng bởi sai lệch.
Định nghĩa 'phù hợp' tốt nhất: Ba chuẩn số
Để xấp xỉ, chúng ta phải xác định một hàm sai số $E$. Cách chúng ta đo "độ gần gũi" sẽ thay đổi kết quả hoàn toàn:
Tìm cách tối thiểu hóa sai số lớn nhất có thể xảy ra:
$$E_{\infty}(a_0, a_1) = \max_{1 \le i \le n} \{|y_i - (a_1 x_i + a_0)|\}$$
Nhược điểm: Phương pháp tối thiểu hóa cực đại thường đánh giá quá cao trọng số của một phần dữ liệu bị sai lệch nghiêm trọng.
Tổng các sai số tuyệt đối:
$$E_1(a_0, a_1) = \sum_{i=1}^{n} |y_i - (a_1 x_i + a_0)|$$
Nhược điểm: Hàm giá trị tuyệt đối không khả vi tại gốc, và chúng ta có thể không tìm được nghiệm cho hệ phương trình này bằng phương pháp giải tích.
Tiêu chuẩn trong phân tích số học, bình phương các sai số dư:
$$E_2(a_0, a_1) = \sum_{i=1}^{n} [y_i - (a_1 x_i + a_0)]^2$$
Điều này tạo ra một bề mặt trơn tru, khả vi, nơi mà giải tích có thể dễ dàng tìm ra cực tiểu toàn cục.
Giới hạn giải tích
Việc chọn một chuẩn là sự cân bằng giữa lập luận và giải tích. Ví dụ, phương pháp độ lệch tuyệt đối không gán đủ trọng số cho một điểm lệch xa so với xấp xỉ, trong khi $L_2$ cung cấp một điểm cân bằng vững chắc, trừng phạt các điểm ngoại lai lớn mà không bị chi phối hoàn toàn bởi một điểm dữ liệu bất thường duy nhất.